# -*- coding: utf-8 -*-
"""
@Time    : 2025/2/26 18:39 
@Author  : ZhangShenao 
@File    : 1.文本清洗.py 
@Desc    : 文本清洗——去除噪声

文本清洗主要包括去除噪声及标准化文本等
去除噪声是指清除文本中对分析无关紧要的部分,比如HTML标签、标点符号、特殊字符等
"""

import re


def remove_noise(raw: str):
    """文本清洗——去除噪声"""
    # 去除HTML标签
    content = re.sub(r'<.*?>', '', raw)
    # 去除标点符号和特殊字符
    content = re.sub(r'[^\w\s]', '', content)
    return content


# 去除噪声
text = "<p>Hello, World! Here's a <a href='https://example.com'>link</a>.</p>"
clean_text = remove_noise(text)
print(clean_text)

# 标准化文本——全部转成小写
tokens_normalized = [token.lower() for token in clean_text]
print(tokens_normalized)
